\section{Задача управления линейной стохастической системой}
\subsection{Постановка задачи}

Рассмотрим систему описываемую стохастическими дифференциальными
уравнениями:
\begin{align}
\label{urav1}dx&=Axdt+Budt+dv,\\ \label{urav2}dy&=Cxdt+de,
\end{align}
где $x\in\mathbb{R}^n\,$- состояние, $u\in\mathbb{R}^p\,$-
управление,
$y\in\mathbb{R}^m\,$- вектор наблюдений; \\
$\{v(t),\,t\in T\},\,\,\{e(t),\,t\in T\}\,$- независимые
винеровские процессы с ковариацией приращений:
$Edv(t)=R_1d_1,\,\,Ee(t)=R_2d_2;$\\
$A,\,B,\,C,\,R_1,\,R_2\,$- матрицы соответствующих размерностей,
которые могут иметь элементы кусочно-непрерывные по времени;\\
$x(t_0)\,$- нормальный вектор: $Ex(t_0)=m,\,\,x(t_0)=R_0,$
$x(t_0)$ и $v(t),\,e(t)\,$- независимы.\\
Функция потерь имеет вид:
\begin{equation}\label{krit}
E\{x^T(t_1)Q_0x(t_1)+\int\limits_{t_0}^{t_1}(x^T(t)Q_1x(t)+u^T(t)Q_2u(t))dt\},
\end{equation}
где $Q_1$ и $Q_0\,$- неотрицательно определенные матрицы, $Q_2\,$-
положительно определенная, симметричная матрица.\\
Допустимая стратегия $u(t)$ есть функция от выходных сигналов
$y(t)$ на отрезке $[t_0,t].$\\
Так как система описывается стохастическим дифференциальным
уравнением, то состояние $x(t)$ является марковским процессом и
условные распределения будущих состояний относительно $x(t)$ будут
совпадать с условными распределениями будущих состояний
относительно $x(s),\,s<t.$\\
В случае полной информации о состоянии допустимые стратегии $u\,$-
функции от $t$ и $x(t).$ В случае неполной информации $u\,$-
функции от $t$ и $Y_t=\{y(s),\,t_0\leq s\leq t\}$. Задачу можно
сформулировать в общем виде:\\
\begin{ex}
Рассмотрим систему описываемую стохастическими дифференциальными
уравнениями~(\ref{urav1}) и ~(\ref{urav2}). Найти допустимую
стратегию управления, минимизирующую критерий~(\ref{krit})
\end{ex}
Так как пространство, натянутое на наблюдаемые сигналы,
бесконечномерно, то задача намного сложнее аналогичной в
дискретном случае. Ниже будет предложен косвенный метод ее
решения, аналогичный второму подходу в дискретном случае. Метод
будет основан на лемме из вариационного исчисления аналогом леммы
для дискретных систем.
\begin{lemma}
Предположим, что уравнение Риккати
\begin{equation}
\label{rikkati} -\frac{dS}{dt}=A^TSD+SA+Q_1-SBQ_2^{-1}B^TS
\end{equation}
с начальным условием $S(t_1)=Q_0$ имеет решение, которое является
неотрицательно определенным на отрезке $t_0\leq t\leq t_1.$ Пусть
$x\,$- решение стохастического дифференциального
уравнения~(\ref{urav1}). Тогда
$$
x^T(t_1)Q_0x(t_1)+\int\limits_{t_0}^{t_1}(x^T(t)Q_1x(t)+u^T(t)Q_2u(t))dt=
$$
$$=x^T(t_0)S(t_0)x(t_0)+\int\limits_{t_0}^{t_1}(u+Q^{-1}_2B^TSx)^TQ_2(u+Q^{-1}_2B^TSx)dt+\int\limits_{t_0}^{t_1}t_1R_1Sdt
+\int\limits_{t_0}^{t_1}vv^TSdx+\int\limits_{t_0}^{t_1}x^TSdv$$
\end{lemma}
\textbf{Доказательство:} Справедливо равенство
\begin{equation}
\label{ravenstvo}x^T(t_1)Q_0x(t_1)=x^T(t_1)S(t_1)x(t_1)=x^T(t_0)S(t_0)x(t_0)+\int\limits_{t_0}^{t_1}d(x^TSx)
\end{equation}
Для вычисления $d(x^TSx)$ воспользуемся правилом Ито:
$$d(x^TSx)=dx^TSx+x^TSdx+x^T\frac{dS}{dx}xdt+tr(SR_1)dt$$
Так как ковариационная функция $dx$ совпадает с ковариационной
функцией $dv$ и равна $R_1dt+o(dt).$
$$(dx^T)Sx=(x^TA^TSx+u^TB^TSx)dt+dv^TSx$$
$$x^TSdx=(x^TSAx+x^TSBu)dt+x^TSdv$$
Из уравнения~(\ref{rikkati}) подставим в слагаемые
$x^T\frac{dS}{dt}x$ определение $\frac{dS}{dt}$
$$x^T\frac{dS}{dt}x=(-x^TA^TSx-x^TSAx-x^TQ_1x+x^TSBQ^{-1}_2B^TSx)dt$$
Подставим все и получим:
$$d(x^TSx)=(u^TB^TSx+x^TSBu-x^TQ_1x+x^TSBQ^{-1}_2B^TSx)dt+tr(SR_1)dt+dv^TSx+x^TSdv=
$$
$$=\{\pm u^TQ_2u\}=$$ $$=(-u^TQ_2u-x^TQ_1x+(u+Q^{-1}_2B^TSx)^TQ_2(u+Q^{-1}_2B^TSx))dt+tr(SR_1)dt+dv^TSx+xSdv$$
Теперь подставим все это в~(\ref{ravenstvo}) и получим то, что
нужно.
\subsection{Случай с полной информацией}
Есть только уравнение~(\ref{urav1}) и допустимыми являются
управления $u\,$- функции от $x(t),\,t,$ причем $x(t)$ мы
наблюдаем.\\
\textbf{Детерминированный случай: $v\equiv 0.$} Лемма приводит к
следующему виду функции потерь:
$$l=x^T(t_1)Q_0x(t_1)+\int\limits_{t_0}^{t_1}(x^T(t)Q_1x(t)+u^T(t)Q_2u(t))dt=$$
$$=x^T(t_0)S(t_0)x(t_0)+\int\limits_{t_0}^{t_1}(u+Q^{-1}_2B^TSx)^TQ_2(u+Q^{-1}_2B^TSx)dt\geq x^T(t_0)S(t_0)x(t_0).$$
Равенство получается в случае:
$$u=Q^{-1}_2B^TSx=-Lx$$
Оптимальная стратегия единственна, так как $Q_2$ положительно
определена. $$minEl=Ex^T(t_0)S(t_0)x(t_0)=\{\mbox{как в дискретном
случае}\}=m'S(t_0)m+trS(t_0)R_0$$ \textbf{Пусть $v\neq 0:$} Учтем,
что по свойствам интеграла Ито
$E(\int\limits_{t_0}^{t_1}dv^TSx+\int\limits_{t_0}^{t_1}x^TSdv)=0$
и то, что $Edv=0.$ Тогда:
$$El=x^T(t_0)S(t_0)x(t_0)+\int\limits_{t_0}^{t_1}(u+Q^{-1}_2B^TSx)^TQ_2(u+Q^{-1}_2B^TSx)dt+\int\limits_{t_0}^{t_1}trR_1Sdt\geq$$
$$\geq x^T(t_0)S(t_0)x(t_0)+\int\limits_{t_0}^{t_1}trR_1Sdt$$
$$minEl=m'S(t_0)m+trS(t_0)R_0+\int\limits_{t_0}^{t_1}trR_1Sdt$$
\subsection{Случай с неполной информацией}
Тогда:
$$minEl=m'S(t_0)m+trS(t_0)R_0+\int\limits_{t_0}^{t_1}trR_1Sdt+\min\limits_u E\int\limits_{t_0}^{t_1}(u+Lx)^TQ_2(u+Lx)dt$$
Найдем:
$$E\int\limits_{t_0}^{t_1}(u+Lx)^TQ_2(u+Lx)dt=E\left(\int\limits_{t_0}^{t_1}E\left((u+Lx)^TQ_2(u+Lx)\mid Y_t\right)dt\right)=$$
$$=E\left(\int\limits_{t_0}^{t_1}(u+L\hat{x})^TQ_2(u+L\hat{x})dt+\int\limits_{t_0}^{t_1}trL^TQ_2LPdt\right)$$
\subsection{Пример: выбор оптимального портфеля}

Имеется капитал $x_0$ с возможностью вложения в рисковые и безрисковые активы (например, опционы и облигации):

\begin{itemize}
	\item Рисковые: $dp_1 = p_1(a\, dt + \alpha \, dv)$
	\item Безрисковые: $dp_2 = p_2b \, dt$
\end{itemize} 
где $p_1, p_2$ --- цены активов, $a, b$ --- процентные ставки ($0 < a < b$, иначе нет смысла рисковать), $\alpha$ --- параметр волатильности. Управлением является доля сбережений $u$ в рисковом активе (соответственно, в безрисковом $1 - u$). Запишем уравнение изменения капитала:
\begin{equation}
	dX_t = X_t\left(au + b(1 - u)\right)\, dt + du \,X_t \, dv
\end{equation}

\par Вообще говоря, получили задачу с ограниченным управлением $u \in [0, 1]$. Можно воспользоваться нечестным способом, применив методы ОУ для задачи без ограничений, а затем ограничить результат. Но мы не такие.

\par Вводим функцию полезности $N(\cdot): [0, \infty) \goes [0, \infty)$, которая является возрастающей и вогнутой.

\begin{problem}
	Максимизировать значение функции полезности в терминальный момент времени.
	$$
		\sup_u \, \E N\!\left(X_{T}^u\right)
	$$	
	где $T$ --- первый момент выхода из области $G = \{ (r, z): r < t_0, z > 0\}$, $t_0$ --- 
	начальный момент времени.
\end{problem}

\par Вводим функцию цены:
\begin{equation}
	\Phi(t, x) = \sup_u \, \left\{ \E N\!\left( X_T^u\right) \condp X_t = x\right\} 
\end{equation}

\par Уравнение ГЯБ примет вид:
\begin{equation}
	\sup_u \, \left\{ \E \diff{\Phi}{t}\right\} = 0
\end{equation}

\par Дифференцируем по правлу Ито:
\begin{equation}
	\diff{\Phi}{t} = \pdiff{\Phi}{t} + \pdiff{\Phi}{x}x (au + b(1 - u)) + \frac12 
	\pdiffs{\Phi}{x}{2} \alpha^2u^2x^2 + \diff{\Phi}{x} \alpha u x \diff{u}{t}
\end{equation}
\par Не стоит забывать, что рассматривается одномерный случай. Начальные условия:
\begin{gather*}
	\Phi(t, x) = N(x), \; t = t_0
	\\
	\Phi(t, 0) = N(0), \; t < t_0
\end{gather*}
\par Предположение $\Phi_x > 0, \Phi_{xx} < 0$.
\begin{equation}
	\sup_u \left\{\pdiff{\Phi}{t} + \pdiff{\Phi}{x}x (au + b(1 - u)) + \frac12 
	\pdiffs{\Phi}{x}{2} \alpha^2u^2x^2 + \diff{\Phi}{x} \alpha u x \diff{u}{t}
	\right\} = 0
\end{equation}
\par И формально решение внутренней задачи:
\begin{equation}
	u^* = - \frac{(a - b)\Phi_x}{x\alpha^2 \Phi_{xx}} > 0
\end{equation}

\par Однако мы не можем гарантировать $u^* \leq 1$. Подставляем $u^*$ в уравнение ГЯБ:
\begin{equation}
	\begin{cases}
		\Phi_t + b_x \Phi_x - \dfrac{(a - b)^2\Phi_x^2}{2\alpha\Phi_{xx}} = 0
		\\
		\Phi(t, x) = N(x), \; t = t_0
		\\
		\Phi(t, 0) = N(0), \; t < t_0
	\end{cases}
\end{equation} 

\par Получили сложное нелинейное уравнение. Попробуем подбирать пробные функции:
\begin{enumerate}
	\item Пусть $\Phi(t, x) = f(t)x^2, \; 0 < r < 1$. Тогда:
	\begin{gather}
		\Phi_x rf(t)x^{r - 1} > 0
		\\
		\Phi_{xx} = r(r - 1)f(t)x^{r - 2} < 0
  	\end{gather}
  	\begin{multline}
		\Phi_t + bx \Phi_x - \frac{(a - b)^2\Phi_x^2}{2\alpha\Phi_{xx}} 
		= \\ =
		f'(t)x^r + brf(t)x^r
		+ \frac{(a - b)^2}{2\alpha^2} \frac{r^2f^2(t)x^{2r - 2}}{r(r - 1)f(t)x^{r - 2}}
		= \\ =
		\left[ f'(t) + brf(t) - \frac{(a - b)^2}{2\alpha^2} \frac{r}{r - 1}f(t)\right]x^r = 0
	\end{multline}
	Получаем, что $f(t) = e^{\lambda(t_0 - t)}$, а $\Phi(t, x) = e^{\lambda(t_0 - t)}x^r$, отсюда
	имеем:
	\begin{equation}
		u^*(t, x) = -\frac{(a - b)\Phi_x}{\alpha^2 x\Phi_{xx}} = \frac{a - b}{\alpha^2(1 - r)}
	\end{equation}
	\par Если $\frac{a - b}{\alpha^2(1 - r)} \leq 1$, тогда решение найдено, при этом можно заметить, что управление не зависит от $t$ --- стратегия заключается в распределении капитала в начальный момент времени.
	\item Пусть $\Phi(t, x) = \log_a x$, тогда:
	\begin{gather}
		\Phi_x = \frac{1}{x \ln a}; \; \Phi_{xx} = - \frac{1}{x^2 \ln a},
		\\
		u^*(t, x) = \frac{a - b}{\alpha^2}, \text{\quad если } \frac{a - b}{\alpha^2} \leq 1 
	\end{gather}
\end{enumerate}